iT邦幫忙

2022 iThome 鐵人賽

DAY 4
0
AI & Data

了解AI多一點點系列 第 4

【Day 4】影像辨識 -- 資料集取得

  • 分享至 

  • xImage
  •  

在我們開始訓練模型前,第一步便是要先取得資料了。若沒有良好的資料集提供模型做訓練,那麼就算擁有再好的技術也是沒有用的。

Kaggle

這邊介紹kaggle網站,kaggle提供各種主題的資料集,包含各式各樣的數據以及影像,讀者若是想要嘗試自己用不同主題做模型的訓練,也都可以到kaggle網站去挑選資料。Microsoft也提供資料搜尋平台,讓使用者可以在上面找到自己想要的資料集。
這裡我們選擇取用Kaggle所提供的Kaggle Cats and Dog Dataset,下載完成後解壓縮會得到PetImages資料夾,裡面有兩個資料夾Cat和Dog分別儲存著12500張照片。該網站已經幫忙把貓和狗的照片分開放置不同的資料夾了,我們不需要再花費額外的功夫去做分類。
https://ithelp.ithome.com.tw/upload/images/20220831/20150784LzJpVBBwgO.png

檔案處理

在兩個資料夾中還分別有各一張0kb的空照片和Thumb.db檔,這邊由於要做刪除的數量少,因此可以直接手動作刪除,不需要再額外用程式抓出刪除。

使用colab的人可以在刪除空照片以及Thumb.db過後,可以將壓縮檔直接丟到google雲端上面,然後再將Google Colab與雲端硬碟做連線,接著再執行下述指令便可以將壓縮檔在虛擬機上解壓縮,並取用圖片檔囉!

!unzip /content/drive/MyDrive/資料夾路徑

https://ithelp.ithome.com.tw/upload/images/20220831/201507844Buq0AFqHH.png
若指令成功執行過後便可看見,PetImages資料夾成功被解壓縮出現於虛擬機上了!


上一篇
【Day 3】影像辨識
下一篇
【Day 5】影像辨識 -- 資料預處理
系列文
了解AI多一點點30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言